贪心学院

09-15 07:47

贪心学院NLP自然语言处理训练营1期高清完整版附讲义源码

整个训练营历时4个月的学习时间，包括多为一线技术专家亲自授课，均毕业于美国顶尖高校。课程覆盖了10多个自然语言实际项目。从传统NLP技术到基于深度学习的NLP技术，帮助学员理解技术深层次的本质关系。学员有机会选择并完成自己感兴趣的课题，无论应用性的还是学术性的课题，导师助教团队都可以很好地指导你。或许这样的一个项目可以让你实现拥有顶会论文的目标。最专业、最体系化的课程课程收获掌握处理非结构化文本数据，完成知识抽取、NLU、多轮对话决策、逻辑推理等NLP核心技术；深入理解分词、语义分析、语义表示、文本匹配、文本分类、主题识别等NLP主流领域；掌握词向量如word2vec等以及NLP相关的深度学习（RNN、LSTM、Bert等）相关知识；掌握NLP传统、机器学习及深度学习算法，完成QA系统、机器翻译、知识图谱、聊天机器人等实战项目。项目列表 Project-Based Learning 问答系统从零开始搭建一个完整的问答系统。给定一个语料库（问题和答案对），对于用户的输入需要返回最适合的答案。涉及到的模块：1. 对于用户的输入需要做拼写纠错，这部分会用到语言模型 2. 之后对输入做文本的预处理，过滤等操作。 3. 把文本转换成向量形式，这里需要用到tf-idf, word2vec等相关的技术。 4. 针对于语料库，为了提升效率需要创建倒排表。 5. 基于相似度的计算来获得最优的答案。情感分析系统基于给定数据，来搭建一个完整的情感分析系统。项目涉及到的模块： 1. 数据的预处理 2. 特征工程，这部分是本项目的核心。 3. 监督学习模型的选择与调参。调参的过程需要尝试不同的优化策略。知识图谱系统利用非结构化数据来搭建知识图谱。项目涉及到的模块：1. 从非结构化数据中抽取实体，以及词典库的构建 2. 关系的抽取（指定的关系） 3. 实体统一以及实体消歧。 4. 知识图谱的构建以及查询对话系统中的NLU 基于给定的对话数据来构建NLU识别部分，并结果用于聊天机器人中。项目涉及到的模块： 1. 文本特征的提取 2. 搭建CRF模型来识别关键词 3. 搭建LSTM-CRF模型来识别关键词。机器翻译系统搭建一个完整的机器翻译系统。这里使用的方法论是端到端的方法。项目需要使用两种不同的方法： 1. 基于多层LSTM+Attention的方法。2. 基于多层Transformer, Bert的方法。任务导向型聊天机器人搭建一个完整的聊天机器人，用来服务搜索餐厅。项目涉及到的模块：1. 文本预处理 2. 意图识别和关键信息抽取 3. 对于每一个意图设计对话管理状态机 4. 设计上下文处理的方法 5. 对话生成模块 6. 处理一些常见的boundary case。开放型Capstone项目（付费项目）这是一个开放性的项目，学员根据自己的兴趣可以选择方向以及题目，导师以及助教团队会全程指导你完成。选择的项目可以围绕自己所熟悉的任何NLP场景，也可以是纯学术性的，当然针对学术性的项目，如果有一定创新性，导师团队也可以协助你发表顶会论文。项目的中期和最后，会有简短的学员项目展示环节，导师和助教团队会提供建设性的意见。课程目录 001.自然语言处理训练营 002.训练营介绍课程体系介绍 003.NLP定义以及歧义性 004.案例.机器翻译01 005.案例.机器翻译02 006.NLP的应用场景 007.NLP的关键技术 008.算法复杂度介绍 009.课后答疑 010.简单的复杂度的回顾 011.归并排序 012.MasterTheorem 013.斐波那契数的时间复杂度 014.斐波那契数的空间复杂度 015.斐波那契数的循环实现 016.PvsNPvsNPHardvsNPComplete 017.问答系统介绍 018.Review一只狗和两只猫的故事——心理学与DL,RL-01 019.Review一只狗和两只猫的故事——心理学与DL,RL-02 020.文本处理的流程 021.分词-前向最大匹配 022.分词-后向最大匹配 023.分词-考虑语言模型 024.分词-维特比算法 025.拼写错误纠正 026.拼写纠错（2） 027.拼写纠错（3） 028.停用词过滤，Stemming操作 029.文本的表示 030.文本的相似度 031.tf-idf文本表示 032.词向量介绍 033.学习词向量 034.倒排表 035.NoisyChannelModel 036.语言模型介绍 037.ChainRule和MarkovAssumption 038.Unigram,Bigram,N-gram 039.估计语言模型的概率 040.评估语言模型.Perplexity 041.Add-oneSmoothing 042.Add-KSmoothing 043.Interpolation 044.2019.2.17Review基于几个例子，书写动态规划-01 045.2019.2.17Review基于几个例子，书写动态规划-02 046.2019.2.17Review基于几个例子，书写动态规划-03 047.Lesson6直播 048.在训练数据里没有见过的怎么处理？ 049.Good-TurningSmoothing 050.利用语言模型生成句子 051.专家系统与基于概率统计学习 052.专家系统介绍 053.逻辑推理 054.CaseStudy风控 055.一些难题 056.机器学习介绍01 057.机器学习介绍02 058.朴素贝叶斯介绍 059.CaseStudy垃圾邮件过滤 060.lambda表达式 061.map函数的应用 062.filter过滤器 063.reduce函数 064.python三大推导式 065.闭包 066.装饰器一 067.装饰器二 068.初识numpy 069.numpy数组的创建 070.numpy的矢量化运算 071.numpy的花式索引 072.numpy数组转置和轴对换 073.条件逻辑转数组 074.数学运算与排序 075.numpy文件处理 076.线性代数函数和随机漫步例子 077.词性标注-实战（1） 078.词性标注--实战（2） 079.词性标注-实战（3） 080.词性标注-实战（4） 081.词性标注-实战（5） 082.初识series类型 083.初识dataframe 084.重新索引、数学运算和数据对齐 085.dataframe和series之间的运算和排序 086.层次化索引 087.dataframe的层次化索引的访问和汇总运算 088.pandas读写csv文件 089.pandas读取excel文件并画图 090.matplotlib可视化及学习方法建议 091.虚拟环境的搭建 092.创建第一个爬虫项目 093.调试运行爬虫程序 094.13-scrapyshell调试方法进行元素定位 095.访问首页列表中的url 096.获取帖子标题和内容 097.处理帖子内容中的特殊标签 098.获取帖子发送时间及位于的楼数 099.爬虫的bug调试与修复 100.数据持久化代码开发 101.数据入库 102.importancesamplenegtivesamplence-01 103.importancesamplenegtivesamplence-02 104.importancesamplenegtivesamplence-03 105.精确率和召回率 106.逻辑回归介绍 107.逻辑回归是线性分类器 108.逻辑回归的目标函数 109.梯度下降法 110.逻辑回归的梯度下降法 111.当线性可分的时候 112.关于面试的话题-01 113.关于面试的话题-02 114.关于面试的话题-03 115.直播（优化算法）-01 116.直播-02 117.直播-03 118.直播-04 119.直播-05 120.直播-06 121.直播-07 122.直播-08 123.直播-09 124.直播-10 125.直播-11 126.当数据线性可分割的时候 127.限制参数变得太大 128.模型复杂度与过拟合 129.怎么避免过拟合 130.正则介绍 131.L1VSL2 132.review数据结构串讲-01 133.review数据结构串讲-02 134.AffectiveComputing&情绪识别实战 135.交叉验证（1） 136.交叉验证（2） 137.正则的作用 138.MLEVSMAP介绍 139.正则的使用 140.交叉验证 141.参数搜索策略 142.高级.正则的灵活应用 143.总结 144.MLE与MAP 145.LassoRegression介绍 146.特征选择技术 147.LASSO介绍 148.CoordinateDescent 149.CoordinateDescentforLASSO 150.其他LASSOSolver 151.变分推断指数族家族lda 152.Optimization 153.OptimizationisEverywhere 154.Optimization-Categories 155.ConvexOptimization-GlobalvsLocalOptimal 156.判断一个函数是凸函数 157.解决一个具体问题1 158.解决一个具体问题2 159.回顾凸函数 160.介绍SetCoverProblem 161.Approach1-ExhaustiveSearch 162.Approach2-贪心算法 163.Approach3-Optimization 164.总结 165.回顾-逻辑回归的梯度下降法 166.梯度下降法的复杂度 167.梯度下降法的收敛分析 168.凸函数性质以及L-Lipschitz条件 169.收敛性推导 170.LinearClassifier 171.Margin的计算 172.SVM的目标函数.Hardconstraint 173.SVM的目标函数.Softconstraint 174.HingeLoss 175.Primal-Dual介绍 176.attentiontransformerbert-01 177.attentiontransformerbert-02 178.Capstone项目介绍 179.LinearSVM的缺点 180.数据映射到高维 181.拉格朗日-等号条件处理 182.拉格朗日-不等号条件处理 183.KKT条件 184.SVM的KKT条件 185.Primal-Dual介绍 186.SVM的Dual推导 187.KernelTrick 188.信息抽取介绍直播 189.命名实体识别介绍 190.简历分析场景 191.搭建NER分类器 192.方法介绍 193.基于规则的方法 194.投票决策方法 195.特征工程与特征表示01 196.特征工程与特征表示02 197.问答 198.信息抽取介绍 199.OntologicalRelation 200.关系抽取方法介绍 201.基于规则的方法 202.基于监督学习的方法 203.cnnrnntransformer对比-01 204.cnnrnntransformer对比-02 205.关系抽取 206.bootstrap算法的缺点 207.SnowBall算法 208.生成模板 209.生成tuple与模板评估 210.评估记录+过滤 211.SnowBall总结 212.EntityDisambiguation(实体消歧)介绍 213.实体消歧算法 214.EntityResolution(实体统一) 215.实体统一算法 216.Co-referenceResolution(指代消解)介绍 217.什么是句法分析 218.句法分析的应用 219.语法 220.PCFG 221.评估语法树 222.寻找最好的树 223.CNFForm 224.CKY算法 225.时序模型 226.HMM的介绍 227.HMM的应用例子 228.HMM的参数 229.HMM中的Inference问题 230.HMM中的FB算法1 231.HMM中的FB算法2 232.HMM中的FB算法3 233.DataRepresentation 234.LatentVariableModels 235.CompletevsIncompleteCase 236.MLEforCompleteandIncompleteCase 237.EMDerivation 238.RemarksonEM 239.K-means 240.K-meansCostFunction 241.MLEforGMM 242.模拟面试(vep)-01 243.模拟面试(vep)-02 244.HMM中的参数 245.CompletevsIncompleteCase 246.CompleteCase 247.IncompleteCase 248.EM算法回顾 249.FB算法回顾 250.估计PI 251.估计B 252.估计A 253.公司实际项目串讲-01 254.公司实际项目串讲-02 255.公司实际项目串讲-03 256.有向图与无向图模型 257.生成模型与判别模型 258.Log-LinearModel 259.Log-LinearModel与多元逻辑回归 260.CRF介绍 261.Inference问题 262.参数估计 263.wordvector词向量 264.GlobalGenerationofDistributedRepresentation 265.HowtoLearnWord2Vec-Intuition 266.Skip-GramModel 267.语料库 268.Word2Vec代码 269.训练SkipGram问题 270.SkipGram另一种目标函数构建 271.SkipGram的negativesampling 272.评估词向量 273.词向量在推荐系统中的应用 274.梯度提升树 275.答疑 276.Word2vec 277.LearningwithSubword 278.Whensubwordisneeded 279.LearnEmbeddingfromLanguageModel 280.Whatarepotentialsolutions 281.ElmoatGlance 282.CategoryofWordRepresentation 283.神经网络介绍 284.激活函数 285.MLP 286.多层神经网络 287.UniversalApproximationTheorem 288.BiologicalInspiration 289.回顾神经网络 290.神经网络的损失函数 291.BP算法的核心流程 292.对输出层的梯度计算 293.对隐含层的梯度计算 294.对参数的梯度计算 295.对BP算法的总结 296.gradientchecking 297.深度学习与非凸函数 298.深度学习中的Plateau 299.SGD的收敛条件 300.EarlyStopping 301.为什么需要递归神经网络？ 302.递归神经网络介绍 303.语言模型 304.RNN的深度 305.梯度爆炸和梯度消失 306.GradientClipping 307.LSTM的介绍 308.LSTM的应用 309.Bi-DirectionalLSTM 310.GatedRecurrentUnit 311.问答系统讲解01 312.问答系统讲解02 313.RepresentationLearning 314.Whatmakesgoodrepresentation-01 315.Whatmakesgoodrepresentation-02 316.Whatmakesgoodrepresentation-03 317.WhyDeep 318.WhyDeepLearningHardtoTrain 319.WaystoSolveTraining 320.Dropout介绍 321.为什么Dropout防止过拟合现象 322.机器翻译 323.MultimodalLearning 324.Seq2Seq模型 325.Seq2Seq训练介绍 326.InferenceDecoding 327.ExhausticSearch 328.BeamSearch 329.回顾MultimodalLearning 330.Attention注意力机制介绍 331.看图说话介绍 332.图像识别的注意力机制 333.基于GAN及强化学习的文本生成-01 334.基于GAN及强化学习的文本生成-02 335.回顾Seq2Seq模型 336.Seq2Seq的Attention 337.Self-Attention1 338.Self-Attention2 339.深度文本匹配-01 340.深度文本匹配-02 341.回顾Attention 342.RNNLSTM-basedmodels 343.Transformer的结构 344.EachEncoderBlock 345.Self-Attention 346.AddNormalize 347.BERT概念 348.回顾Languagemodel 349.maskedLanguagemodel 350.maskedLanguagemodel存在的问题 351.LSTM 352.BERT训练过程 353.PGM领域 354.主题模型 355.回顾不同模型的范畴ModelEstimation 356.预测的过程 357.GD，SGD，Adagrad算法 358.回顾LDA 359.举例说明生成的过程 360.从官方的角度讲解生成的过程 361.α到θi的生成 362.举例说明生成文章 363.gibbssampler 364.collapsedgibbssampling-01 365.collapsedgibbssampling-02 366.collapsedgibbssampling-03 367.collapsedgibbssampling-04 368.collapsedgibbssampling-05 369.推导过程01 370.推导过程02 371.推导过程03 372.Gibbs采样01 373.Gibbs采样02 374.Web-ScaleInformationExtractioninKnowItAll-01 375.Web-ScaleInformationExtractioninKnowItAll-02 376.核函数 377.直播-01 378.直播-02 379.直播-03 380.直播-04 381.直播-05 382.直播-06 383.直播-07 384.直播-01 385.直播-02 386.直播-03 387.直播-04 388.直播-05 389.直播-06 390.利用CRF模型做命名实体识别-01 391.利用CRF模型做命名实体识别-02 392.基于语料库训练Glove词向量模型-01 393.基于语料库训练Glove词向量模型-02 394.GMM-01 395.GMM-02 396.GMM-03 397.XLNet-BertAutoregressiveLM 398.改进思路 399.Bert的目标函数 400.permutation 401.pytorch实现skip-gram 402.Airbnb（KDD2018bestPaper）-01 403.Airbnb（KDD2018bestPaper）-02 404.直播-01 405.直播-02 406.直播-03 407.直播-04

1193